Benefiting from masked visual modeling, self-supervised video representation learning has achieved remarkable progress. However, existing methods focus on learning representations from scratch through reconstructing low-level features like raw pixel RGB values. In this paper, we propose masked video distillation (MVD), a simple yet effective two-stage masked feature modeling framework for video representation learning: firstly we pretrain an image (or video) model by recovering low-level features of masked patches, then we use the resulting features as targets for masked feature modeling. For the choice of teacher models, we observe that students taught by video teachers perform better on temporally-heavy video tasks, while image teachers transfer stronger spatial representations for spatially-heavy video tasks. Visualization analysis also indicates different teachers produce different learned patterns for students. Motivated by this observation, to leverage the advantage of different teachers, we design a spatial-temporal co-teaching method for MVD. Specifically, we distill student models from both video teachers and image teachers by masked feature modeling. Extensive experimental results demonstrate that video transformers pretrained with spatial-temporal co-teaching outperform models distilled with a single teacher on a multitude of video datasets. Our MVD with vanilla ViT achieves state-of-the-art performance compared with previous supervised or self-supervised methods on several challenging video downstream tasks. For example, with the ViT-Large model, our MVD achieves 86.4% and 75.9% Top-1 accuracy on Kinetics-400 and Something-Something-v2, outperforming VideoMAE by 1.2% and 1.6% respectively. Code will be available at \url{https://github.com/ruiwang2021/mvd}.
translated by 谷歌翻译
The security of artificial intelligence (AI) is an important research area towards safe, reliable, and trustworthy AI systems. To accelerate the research on AI security, the Artificial Intelligence Security Competition (AISC) was organized by the Zhongguancun Laboratory, China Industrial Control Systems Cyber Emergency Response Team, Institute for Artificial Intelligence, Tsinghua University, and RealAI as part of the Zhongguancun International Frontier Technology Innovation Competition (https://www.zgc-aisc.com/en). The competition consists of three tracks, including Deepfake Security Competition, Autonomous Driving Security Competition, and Face Recognition Security Competition. This report will introduce the competition rules of these three tracks and the solutions of top-ranking teams in each track.
translated by 谷歌翻译
基于变压器的模型已在主要的视频识别基准上取得了最佳性能。与基于CNN的模型相比,这些模型受益于自我发项机制,显示出更强的建模长期依赖性能力。但是,大量的计算开销是由于自我注意力的二次复杂性在大量令牌之上,限制了现有的视频变压器在具有有限资源(例如移动设备)的应用程序中的使用。在本文中,我们将移动格式扩展到视频移动格式,该版本将视频体系结构分解为轻量级的3D-CNN,用于本地上下文建模,并以并行方式将变压器模块用于全局交互建模。为了避免通过计算视频中大量本地补丁之间的自我注意力而产生的重大计算成本,我们建议在变形金刚中使用很少的全球令牌(例如6)将整个视频中的整个视频用于与3D-CNN交换信息 - 注意机制。通过有效的全球时空建模,视频移动形式显着提高了替代轻型基线的视频识别性能,并且在各种视频识别任务上,低FLOP策略的其他有效CNN模型从500m到6G总鞋类胜过其他基于CNN的模型。值得注意的是,视频移动格式是第一个基于变压器的视频模型,它限制了1G失败范围内的计算预算。
translated by 谷歌翻译
生成的对抗网络(GAN)已受过培训,成为能够创作出令人惊叹的艺术品(例如面部生成和图像样式转移)的专业艺术家。在本文中,我们专注于现实的业务方案:具有所需的移动应用程序和主题样式的可自定义图标的自动生成。我们首先引入一个主题应用图标数据集,称为Appicon,每个图标都有两个正交主题和应用标签。通过研究强大的基线样式,我们观察到由正交标签的纠缠引起的模式崩溃。为了解决这一挑战,我们提出了由有条件的发电机和双重歧视器组成的ICONGAN,具有正交扩大,并且进一步设计了对比的特征分离策略,以使两个歧视器的特征空间正常。与其他方法相比,ICONGAN在Appicon基准测试中表明了优势。进一步的分析还证明了解开应用程序和主题表示的有效性。我们的项目将在以下网址发布:https://github.com/architect-road/icongan。
translated by 谷歌翻译
对象检测器的复杂性过度权衡是资源约束视觉任务的关键问题。先前的作品强调了用有效的骨干实现的检测器。在这项工作中,研究了对检测负责人对提案处理的这种权衡的影响。假设提高的检测效率需要范式转移,朝着不平等的建议处理,将更多的计算分配给良好的建议,而不是贫穷的建议。这可以更好地利用可用的计算预算,从而为同一失败提供了更高的精度。我们将其作为一个学习问题提出,目的是将操作员分配给检测头的建议,以便将总计算成本受到限制,并且精确度最大。关键发现是,可以将这种匹配作为一个函数,该函数将每个提案嵌入到操作员的单速代码中。尽管此功能诱导了复杂的动态网络路由机制,但它可以由简单的MLP实现,并通过现成的对象检测器端到端学习。这种“动态建议处理”(DPP)显示出明确的计算复杂性的明确余量,表现出优于最先进的端到端对象检测器(DETR,稀疏R-CNN)。
translated by 谷歌翻译
利用大规模数据可以在许多计算机视觉任务上引入性能增长。不幸的是,当对象检测中训练多个数据集下的单个模型时,这并没有发生。我们观察到两个主要障碍:分类学差异和边界框注释不一致,这引入了不同数据集中的域间隙,从而阻止我们进行联合培训。在本文中,我们表明,可以通过简单地将对象查询在每个数据集的类别嵌入语言嵌入中来有效地解决这两个挑战。我们设计一个检测中心以根据数据集的不同分布在类别嵌入中动态调整查询。与以前的方法试图学习所有数据集的联合嵌入方式不同,我们的适应方法可以利用语言嵌入作为通用类别的语义中心,同时学习对属于不同数据集的特定类别的语义偏见来处理注释差异并弥补域间隙。这些新颖的改进使我们能够同时在多个数据集上端到端培训单个探测器,以充分利用它们的优势。在多个数据集上进行联合培训的进一步实验证明了对单独的单个微型检测器的显着性能提高。
translated by 谷歌翻译
反转技术被广泛用于重建基于表面的地球物理测量值(例如,地震,电气/磁(EM)数据)的地下物理特性(例如,速度,电导率)。这些问题受波浪或麦克斯韦方程等部分微分方程(PDE)的控制。解决地球物理反演问题由于不适当和高计算成本而具有挑战性。为了减轻这些问题,最近的研究利用深层神经网络来学习从测量到物业的倒置映射。在本文中,我们表明,这样的映射可以通过仅有五层的非常浅(但不是宽)网络来很好地建模。这是基于我们对有趣属性的新发现来实现的:在高维空间中应用积分变换后,输入和输出之间的近乎线性关系。特别是,在处理由波方程控制的从地震数据到地下速度的反演时,与高斯核的速度的积分结果与正弦核的地震数据的积分线性相关。此外,该属性可以轻松地转变为用于反转的轻质编码器网络。编码器包含地震数据和线性转换的整合,而无需进行微调。解码器仅由一个单个变压器块组成,以逆转速度的积分。实验表明,这种有趣的属性可用于四个不同数据集的两个地球物理倒置问题。与更深的倒置网络相比,我们的方法达到了可比的精度,但消耗的参数大大减少。
translated by 谷歌翻译
专家(MOE)的混合物能够有效地扩展视觉变压器。但是,它需要禁止计算资源来训练大型MOE变压器。在本文中,我们提出了专家的残留混合物(RMOE),这是在下游任务(例如分割和检测)上针对MOE视觉变压器的有效训练管道。 RMOE通过上限的MOE培训获得了可比的结果,而仅引入较小的额外培训成本,而不是较低的非MOE训练管道。效率得到了我们的关键观察的支持:MOE变压器的权重可以纳入无独立的核心和输入依赖性残差。与重量核心相比,可以通过更少的计算资源(例如,在下游数据上进行填充)进行有效训练重量。我们表明,与当前的MOE培训管道相比,我们获得了可比的结果,同时节省了30%以上的培训成本。与最先进的非MOE变压器(例如SWIN-T / CVT-13 / SWIN-L)相比,我们在ADE20K分割方面获得+1.1 / 0.9 / 1.0 MIOU的增益,+1.4 / 1.6 / 0.6 / 0.6 AP获得MS-Coco对象检测任务,额外培训成本不到3%。
translated by 谷歌翻译
我们提出了DEFR,一种无检测方法,以在图像水平处识别人对象交互(HOI)而不使用对象位置或人类姿势。当探测器是现有方法的一个组成部分时,这是具有挑战性的。在本文中,我们提出了两个调查结果来提高无检测方法的性能,这显着优于辅助现有技术。首先,我们发现它至关重要,可以有效地利用了海上课程之间的语义相关性。可以通过使用Hoi标签的语言嵌入来初始化线性分类器来实现显着的增益,该分类器编码HOI的结构以指导培训。此外,我们提出了Log-Sum-exp符号(LSE-Sign)丢失,以便通过使用SoftMax格式平衡渐变渐变的渐变来促进长尾数据集上的多标签学习。我们的无检测方法实现了65.6地图在Hoi分类上的HICO分类,优于18.5地图的检测辅助状态(SOTA),在一次拍摄类中,52.7地图,超过了SOTA 27.3地图。与以前的工作不同,我们的分类模型(DEFR)可以直接用于HOI检测,而无需任何额外的训练,通过连接到废弃的对象检测器,其边界框输出被转换为DEFR的二进制掩模。令人惊讶的是,这两个解耦模型的这种简单的连接实现了SOTA性能(32.35张图)。
translated by 谷歌翻译
本文在课堂增量学习中使用视觉变压器(VIT)研究。令人惊讶的是,天真地应用Vit替代卷积神经网络(CNNS)导致性能下降。我们的分析揭示了三个天然使用VIT的问题:(a)vit在课程中较小时具有非常缓慢的会聚,(b)在比CNN的模型中观察到新类的更多偏差,并且(c)适当的学习率Vit太低,无法学习良好的分类器。基于此分析,我们展示了这些问题可以简单地通过使用现有技术来解决:使用卷积杆,平衡FineTuning来纠正偏置,以及分类器的更高学习率。我们的简单解决方案名为Vitil(Vit用于增量学习),为所有三类增量学习设置实现了全新的最先进的保证金,为研究界提供了强大的基线。例如,在ImageNet-1000上,我们的体内体达到69.20%的前1个精度为500个初始类别的15个初始类别,5个增量步骤(每次100个新类),表现优于leulir + dde ​​1.69%。对于10个增量步骤(100个新课程)的更具挑战性的协议,我们的方法优于PODNet 7.27%(65.13%与57.86%)。
translated by 谷歌翻译